logo OpenAI dans l'obscuritéMojahid Mottakin – Unsplash

OpenAI communique sur ses capacités à cloner des voix, mais pas sur les données d’entrainement

« Open » AI ?

Avatar de l'auteur
Martin Clavey

Publié dans

IA et algorithmes

04/04/2024 6 minutes
21

logo OpenAI dans l'obscuritéMojahid Mottakin – Unsplash

Comme avec Sora, OpenAI communique sur un outil capable de cloner des voix tout en ne le rendant pas public pour des raisons éthiques. Et encore une fois, se pose la question des données d'entrainement de ce nouvel outil d'IA générative. En parallèle, l'entreprise de Sam Altman rend disponible ChatGPT sans compte pour les internautes américains et rêve avec Microsoft de construire un supercalculateur à 100 milliards de dollars consacré à leurs projets d'IA.

En fin de semaine dernière, OpenAI a publié un billet de blog pour montrer les capacités de son nouvel outil d'IA générative, « Voice Engine ». Mais, considérant les critiques contre de tels outils et notamment leur potentielle utilisation pour humilier ou arnaquer à travers des deep fakes, l'entreprise insiste sur le fait qu'elle ne met pas (pour l'instant) l'outil dans les mains de n'importe qui.

Cette présentation, sans accès public, rappelle celle que l'entreprise avait déjà utilisée pour son IA générative de vidéos, Sora. Elle a l'avantage de montrer que l'entreprise continue d'innover sans gérer d'éventuels nouveaux problèmes d'images et d'échelle pour l'entreprise qui, avec ChatGPT, a lancé le premier outil très grand public basé sur un modèle de langage.

OpenAI n'est pas la seule startup à être capable de proposer ce genre d'outils de clonage de voix : une recherche dans votre moteur préféré permet de trouver de nombreux outils comme Murf, Play.ht, Voice.ai...

Continuité de son API text-to-speech et partenariats

La suite est réservée à nos abonnés.

Déjà abonné ? Se connecter

Abonnez-vous

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Continuité de son API text-to-speech et partenariats

La sempiternelle question des données d’entrainement

ChatGPT sans compte, mais avec réutilisation des données en opt out

Stargate, un supercalculateur à 100 milliards de dollars ?

Fermer

Commentaires (21)


Quelqu'un peut-il m'expliquer la finalité qu'on peut trouver à cloner une voix humaine ? J'ai du mal à trouver un usage légitime intéressant à une telle fonction.

Ou alors ce n'est que pour dire "on sait le faire" côté OpenAI ?
C'est utile pour tout ce qui est text to speech. Pour lire des livres aux personnes malvoyantes et toutes les aides que cela peut leur apporter au quotidien (lire un article d'un site web...). C'est plus compréhensible que les voix générées jusqu'à maintenant. Ce sera utile aux futurs robots humanoïdes pour s'exprimer.
Il y a aussi beaucoup de possibilité coté arnaques (ça existe déjà) ou de falsification de preuves...
On peut imaginer que tu transmettes un message écrit (écrit dans le train par exemple) et qu'il soit lu dans la voiture de ton destinataire avec ta propre voix plutôt que celui de la synthèse vocale. Je crois que c'est Apple qui travaille un peu là dessus.

Au cinéma, la possibilité de refaire des séquences dont la captation son serait pas bonne, sans faire intervenir l'acteur d'origine.

Côté santé, permettre de reparler à des handicapés qui auraient perdus l'usage de la voix (via une puce Neuralink par exemple).

MisterDams

On peut imaginer que tu transmettes un message écrit (écrit dans le train par exemple) et qu'il soit lu dans la voiture de ton destinataire avec ta propre voix plutôt que celui de la synthèse vocale. Je crois que c'est Apple qui travaille un peu là dessus.

Au cinéma, la possibilité de refaire des séquences dont la captation son serait pas bonne, sans faire intervenir l'acteur d'origine.

Côté santé, permettre de reparler à des handicapés qui auraient perdus l'usage de la voix (via une puce Neuralink par exemple).
Au cinéma, la possibilité de refaire des séquences dont la captation son serait pas bonne, sans faire intervenir l'acteur d'origine.


Ou mort ou prenant sa retraite. Cf James Earl Jones.
Pour faire le communicateur universel de star trek. Chacun parle sa langue mais les autres entendent ce qui est dit dans leur propre langue. Ca permet de mieux saisir les nuances et de parler avec des personnes parlant une langue qu'on ne connait pas du tout

ShadowNet

Pour faire le communicateur universel de star trek. Chacun parle sa langue mais les autres entendent ce qui est dit dans leur propre langue. Ca permet de mieux saisir les nuances et de parler avec des personnes parlant une langue qu'on ne connait pas du tout
Bien vu !

ShadowNet

Pour faire le communicateur universel de star trek. Chacun parle sa langue mais les autres entendent ce qui est dit dans leur propre langue. Ca permet de mieux saisir les nuances et de parler avec des personnes parlant une langue qu'on ne connait pas du tout
Cela va à l'encontre de la volonté divine (Genèse 11) :
Allons ! descendons, et là confondons leur langage, afin qu’ils n’entendent plus la langue, les uns des autres.
Il y a aussi la disparition des "accents" pour les call center (voire des call center qui n'ont plus besoin de parler francais), de la publicité ciblée (imagine que la voix de ta copine t'insuffle d'acheter le dernier SUV) etc. Avec pour conséquence : Zéro confiance dans les communications orales.
Pour faire croire à quelque tueur en série qu'on est toujours en train de chanter sous la douche alors qu'on est sorti par la fenêtre en train de démarrer la voiture. Imagine le nombre de personnes qui seraient sauvées dans les films !

swiper

Pour faire croire à quelque tueur en série qu'on est toujours en train de chanter sous la douche alors qu'on est sorti par la fenêtre en train de démarrer la voiture. Imagine le nombre de personnes qui seraient sauvées dans les films !
Même si des fois certaines fenêtres de salle de bain, ben elles sont pas bien larges... enfin avec un peu de gel de douche ou du shampoing...
Je m'en sers pour mes flashcards Anki (Text To Speech est intégré dans les OS comme MacOS, iOS et iPadOS) pour l'apprentissage des langues à défaut d'avoir des enregistrements de voix. Voir pour les intéressés: https://docs.ankiweb.net/templates/fields.html#text-to-speech-for-individual-fields.
L’investissement se concentrerait notamment sur l’achat de NPU et la machine demanderait une puissance électrique de 5 GW.

5 GW, c'est l'équivalent de 6 centrales nucléaires actuelles ou 3,5 futurs EPR. Tout ça pour alimenter un seul ordinateur. C'est vraiment n'importe quoi :eeek2::eeek2::eeek2:
Oui, mais c'est un très très gros ordinateur :D

Vincent Hermann

Oui, mais c'est un très très gros ordinateur :D
Cela dit, peut-être que dans les 100 milliards de dollar, ça inclut la construction des centrales nucléaires :fumer:

pamputt

Cela dit, peut-être que dans les 100 milliards de dollar, ça inclut la construction des centrales nucléaires :fumer:
Pas les EPR d'Areva alors, c'est hors budget si l'on se fie aux EPR français et finlandais 🤪
Modifié le 26/04/2024 à 21h39

Historique des modifications :

Posté le 04/04/2024 à 12h54


Pas les EPR d'Orano (ex Areva) alors c'est hors budget si l'on se fie aux EPR français et suédois 🤪

Mindblast

Pas les EPR d'Areva alors, c'est hors budget si l'on se fie aux EPR français et finlandais 🤪
Orano, c'est le combustible. l'EPR d'Olkiluoto (en Finlande), c'est toujours chez AREVA S.A.
Modifié le 04/04/2024 à 14h32

Historique des modifications :

Posté le 04/04/2024 à 14h31


Orano, c'est le combustible. l'EPR d'Olkiluoto (en Finlande), c'est toujours chez AREVA S.A.

C'est presque deux fois ce qu'il faut pour voyager dans le temps....

RuMaRoCO

C'est presque deux fois ce qu'il faut pour voyager dans le temps....
Mauvais exemple. Vu son nom, il servira à mettre en place et maintenir un pont dans l'espace-temps via trou de ver.

SebGF

Mauvais exemple. Vu son nom, il servira à mettre en place et maintenir un pont dans l'espace-temps via trou de ver.
Autant pour moi c'tétait 2,21 GigOwatt :-) (je suis allé reverifier)

par contre dans sliders je n'ai pas souvenir de combien d'énergie il avait eu besoin pour son 1er portail ;-)
Modifié le 04/04/2024 à 16h12

Historique des modifications :

Posté le 04/04/2024 à 16h11


2,21 GigOwatt :-)

par contre dans sliders je n'ai pas souvenir de combien d'énergie il avait eu besoin pour son 1er portail ;-)

RuMaRoCO

Autant pour moi c'tétait 2,21 GigOwatt :-) (je suis allé reverifier)

par contre dans sliders je n'ai pas souvenir de combien d'énergie il avait eu besoin pour son 1er portail ;-)
Je sais pas, mais vu la taille de la télécommande qu'ils avaient dans la série, ça doit être des sacré Duracell dedans !
Tranches nucléaires, pas centrales qui peuvent en avoir jusqu'à 6 en France.
et en ne prenant en compte que les anciennes qui produisent 900 MW.
Environ moitié du parc actuel produits jusqu'à 1300 MW et 4 atteignent 1450.

Mais, sinon, c'est trop en effet.